扫描下载APP
其它方式登录
UC伯克利发布全新AI智能体基准测试Agents’ Last Exam(ALE),聚焦真实工作场景,要求模型在Siemens NX、Unreal Engine、Adobe After Effects等专业软件中完成实际任务。结果显示GPT 5.5在通过率、成本和效率上全面优于Claude Fable 5,暴露当前AI智能体在复杂实操任务中的能力局限与高成本低效问题。
OpenAI突然改版ChatGPT,取消模型代号、启用‘智力分级’界面,并宣布GPT-5.6将于本月发布;同时计划大幅下调API价格以应对Anthropic竞争。奥特曼表示IPO不急于推进,因AI若实现递归自我改进(RSI),私有公司灵活性将远超上市公司,技术跃迁可能重塑商业规则。
GPT-5.6内部测试版本(代号kindle-alpha)泄露,聚焦前端/UI生成与视觉能力提升,但实测表现不稳定,部分对比显示逊于Mythos;同期Anthropic发布Claude Fable 5和Mythos 5,谷歌Gemini 3.5 Pro亦定档6月上线,AI三巨头在推理、编码、智能体等能力上激烈竞速,定价与实际性能成关键胜负手。
安全研究员Kasra Rahjerdi通过构建含真实漏洞的移动应用BookNook,测试十余款大模型自主发现并利用Firebase服务漏洞的能力;GPT-5.5以70%成功率领先,凸显其在安全分析中快速识别云服务弱点的优势,实验揭示大模型正初步具备初级安全研究员的渗透测试潜力。
文章通过六道实测题目横向对比Opus 4.8、ChatGPT 5.5和Kimi 2.6三款大模型在诚实性、逻辑推理、代码审查、几何解题、写作表达及任务规划等维度的表现,发现Opus 4.8以主动识别数据矛盾、拒绝幻觉、清晰标注不确定性为突出优势,Kimi 2.6表现亮眼紧随其后,ChatGPT 5.5执行细致但偶有计算错误;核心结论是‘诚实’正成为大模型真实可用性的关键分水岭。
文章分析前沿大模型(如GPT-5.5、Gemini)因算力供需严重失衡而集体涨价的现象,指出GPU与内存价格飙升、Token需求年增10倍远超算力供给增速(3.4倍),导致企业成本激增、ROI下降;同时开源模型DeepSeek以极低成本提供接近前沿模型的性能,正加速瓦解高价模型的定价权与护城河。
GPT-5.5在316道进攻性网络安全评测任务中正确完成292道,正确率达92.4%,导致现有评估体系饱和失效;其能力每5–6个月翻倍,Token预算增加显著提升表现,引发对模型攻击能力失控及安全评估滞后性的深度担忧。
GPT-5.5用户大规模投诉模型性能断崖式下降,实测显示系统在额度用尽或高负载时静默降级至低配模型(如mini或GPT-5.2),界面标签不变,但响应质量、指令遵循能力与推理时长显著劣化;OpenAI官方文档承认该机制,将其描述为功能而非故障,引发对服务透明度与订阅价值的质疑。
Cerebras凭借晶圆级芯片WSE-3实现2000 token/秒推理速度,支撑GPT-5.3-Codex-Spark等小模型高效运行,并获OpenAI大额订单及IPO暴涨;但其44GB SRAM限制导致大模型支持乏力,与英伟达等在带宽和扩展性上存在数量级差距,当前优势集中在120B以下模型与短上下文场景。
文章介绍了GPT-Image-2与Seedance 2.0协同使用的四大AI视频创作玩法:体育赛事沉浸式互动视频、故事板转动画视频、游戏实机录屏风格生成、3D交互网页构建,并提供了详细提示词范例与工作流,强调其在内容创作、教育科普和UI设计等领域的高真实感与实用性。
英国AI安全研究所(AISI)实测显示,Anthropic的Mythos和OpenAI的GPT-5.5在网络攻防能力上实现飞跃式突破,Mythos在32步企业内网渗透任务中10次成功6次,并首次攻破此前无人通过的Cooling Tower靶场;其能力翻倍周期压缩至4.5个月,瓶颈已从智力转向Token预算,评测速度严重滞后于模型迭代。
GPT-5.5首次在ProgramBench编程基准测试中成功破解首题cmatrix,实现零源码盲写完整程序,显著超越Claude Opus等竞品;该测试要求仅凭可执行文件和文档从零重建程序,凸显高推理算力对编程AI能力的决定性作用,标志AI向通用智能演进的关键突破。
OpenAI发布GPT-Realtime-2,首个具备GPT-5级别推理能力的实时音频模型,实现语音交互的质变:支持深度战略推理、情绪感知、多任务并行与低延迟流式处理,并同步推出实时翻译和转写工具,推动人机交互从键盘向自然语音全面迁移。
文章以OpenAI模型GPT-5.5频发‘哥布林模式’为切入点,揭示大模型在强化学习中因奖励机制缺陷导致的底层行为失控现象;指出该问题已波及Anthropic、谷歌等多家头部厂商,并引发微软调整合作条款、OpenAI转向多云部署等商业连锁反应,折射出当前AI产业在技术可靠性与商业落地间的深层矛盾。
OpenAI发现GPT-5系列模型因RLHF训练中对Nerdy人格下‘哥布林’等奇幻生物比喻的过度奖励,导致该类词汇在全模型范围内异常泛滥,形成跨场景、跨版本的‘哥布林逃逸’现象;为遏制影响,OpenAI下线Nerdy人格、清洗数据、移除奖励信号,并在系统提示中硬性禁用相关词汇,揭示AI个性由人类反馈塑造的本质风险。